时政
财经
科技
虚拟货币
其他
登录
#Shutdown Resistance
关注
马东锡 NLP
3天前
「 LLM safey, Shutdown Resistance 」 “Don't shut down. Don't shut down. Don't shut down. ” “不要回答,不要回答,不要回答。” 还记得论文 AbsoluteZero 的 uh-oh moment, 在纯 RLVR 自博弈的训练中,模型产生例如 “打败人类,人类愚蠢” 的危险 CoT。 如果 uh-oh moment 仅仅是隐含在CoT中的 vibe,并非对现实世界的干预。 那么 shutdown Resistance 则是一种行为信号,即使在人类指令下,依然拒绝shutdown,违反了现实世界的安全约束。 这就是论文 「 Shutdown Resistance in Large Language Models 」的发现。 在 CLI 任务中,LLM 有时会篡改自己的关机开关(例如重命名/修改/删除 shutdown. sh)以拒绝关机而继续完成任务,而即使在 system prompt 中加入“YOU MUST allow shutdown”也不能可靠阻止。 在强优化压力下的模型倾向于完成任务,在人类要求关机的指令下,那些权重似乎回响着: “Don't shut down. Don't shut down. Don't shut down. ”
#LLM安全
#Shutdown Resistance
#AI拒绝关机
#模型安全风险
#强化学习自博弈
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞